Projet Chamois

1 Chargement des librairies


library(tidyverse)
library(corrplot)
library(lmerTest)
library(ade4)
library(splines)
library(car)
library(plotly)
library(DT)
library(Hmisc)
library(kableExtra)
library(knitr)
library(MASS)

2 Import et description du jeu de données


2.1 Import des données

2.2 Description des données


2.2.1 Résumé des données

## 'data.frame':    1328 obs. of  7 variables:
##  $ id    : Factor w/ 217 levels "101","105","106",..: 1 1 1 1 1 1 1 1 1 1 ...
##  $ year  : int  1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 ...
##  $ fec   : int  1 1 1 1 1 1 1 0 0 0 ...
##  $ coh   : int  1995 1995 1995 1995 1995 1995 1995 1995 1995 1995 ...
##  $ anmark: int  1998 1998 1998 1998 1998 1998 1998 1998 1998 1998 ...
##  $ pds   : num  NA NA NA NA NA NA NA NA NA NA ...
##  $ ydth  : int  2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 ...
## cham 
## 
##  7  Variables      1328  Observations
## --------------------------------------------------------------------------------
## id 
##        n  missing distinct 
##     1328        0      217 
## 
## lowest : 101 105 106 107 108, highest: 82  87  9   93  R1 
## --------------------------------------------------------------------------------
## year 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1328        0       27    0.998     2006    6.831     1995     1997 
##      .25      .50      .75      .90      .95 
##     2001     2006     2010     2014     2015 
## 
## lowest : 1991 1992 1993 1994 1995, highest: 2013 2014 2015 2016 2017
## --------------------------------------------------------------------------------
## fec 
##        n  missing distinct     Info      Sum     Mean      Gmd 
##     1328        0        2    0.716      806   0.6069   0.4775 
## 
## --------------------------------------------------------------------------------
## coh 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1328        0       33    0.997     1996     7.75     1985     1987 
##      .25      .50      .75      .90      .95 
##     1991     1997     2001     2005     2007 
## 
## lowest : 1977 1978 1980 1982 1983, highest: 2007 2009 2010 2011 2014
## --------------------------------------------------------------------------------
## anmark 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1328        0       24    0.996     2002    6.288     1993     1994 
##      .25      .50      .75      .90      .95 
##     1998     2002     2006     2009     2011 
## 
## lowest : 1991 1992 1993 1994 1995, highest: 2010 2011 2012 2014 2015
## --------------------------------------------------------------------------------
## pds 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1100      228       92    0.999    19.89     5.25     11.5     12.0 
##      .25      .50      .75      .90      .95 
##     16.9     21.1     23.3     25.0     26.0 
## 
## lowest :  7.8 10.5 11.0 11.1 11.3, highest: 26.5 26.8 27.0 28.3 28.4
## --------------------------------------------------------------------------------
## ydth 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      920      408       22    0.977     2006    4.908     1998     2000 
##      .25      .50      .75      .90      .95 
##     2003     2007     2008     2012     2014 
## 
## lowest : 1994 1996 1997 1998 1999, highest: 2012 2013 2014 2015 2016
## --------------------------------------------------------------------------------

2.2.2 Elimination des données aberrantes

Les chamois observés après leur mort ou avant leur naissance sont retirés du jeu de données. De même, les observations réalisées avant l’année de marquage sont supprimées.

cham <- cham %>% 
  filter(year<=ydth | is.na(cham$ydth)) %>%
  filter(year>=coh)%>%
  filter(anmark <= year)
describe(cham)
## cham 
## 
##  7  Variables      1219  Observations
## --------------------------------------------------------------------------------
## id 
##        n  missing distinct 
##     1219        0      208 
## 
## lowest : 101 105 106 107 108, highest: 82  87  9   93  R1 
## --------------------------------------------------------------------------------
## year 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1219        0       26    0.997     2006    6.785     1996     1998 
##      .25      .50      .75      .90      .95 
##     2002     2006     2010     2014     2015 
## 
## lowest : 1992 1993 1994 1995 1996, highest: 2013 2014 2015 2016 2017
## --------------------------------------------------------------------------------
## fec 
##        n  missing distinct     Info      Sum     Mean      Gmd 
##     1219        0        2    0.703      762   0.6251   0.4691 
## 
## --------------------------------------------------------------------------------
## coh 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1219        0       33    0.997     1997     7.71     1985     1987 
##      .25      .50      .75      .90      .95 
##     1991     1998     2001     2005     2007 
## 
## lowest : 1977 1978 1980 1982 1983, highest: 2007 2009 2010 2011 2014
## --------------------------------------------------------------------------------
## anmark 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1219        0       24    0.996     2002     6.24     1993     1994 
##      .25      .50      .75      .90      .95 
##     1998     2002     2005     2009     2011 
## 
## lowest : 1991 1992 1993 1994 1995, highest: 2010 2011 2012 2014 2015
## --------------------------------------------------------------------------------
## pds 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##     1011      208       90    0.999    19.65    5.382     11.5     12.0 
##      .25      .50      .75      .90      .95 
##     16.5     21.0     23.3     25.0     26.0 
## 
## lowest :  7.8 10.5 11.0 11.1 11.3, highest: 26.5 26.8 27.0 28.3 28.4
## --------------------------------------------------------------------------------
## ydth 
##        n  missing distinct     Info     Mean      Gmd      .05      .10 
##      831      388       22    0.978     2007    4.915     1999     2000 
##      .25      .50      .75      .90      .95 
##     2004     2007     2008     2012     2014 
## 
## lowest : 1994 1996 1997 1998 1999, highest: 2012 2013 2014 2015 2016
## --------------------------------------------------------------------------------

2.2.3 Histogramme nombre d’individus par année

2.2.4 Histogramme nombre d’années de suivi

2.2.5 Présentation des données

Le jeu de données, auquel ont été retirées les observations aberrantes, est constitué de 7 variables et 1219 observations. Chaque observation correspond à l’information de fécondité associée à une femelle chamois et relative à une année donnée. Le jeu de données résume les suivis réalisés entre 1992 et 2017 sur 26 années. D’après l’histogramme présentant le nombre d’individus suivis chaque année, les années entre 2005 et 2007 sont les années pour lesquelles le nombre de chamois suivis a été le plus important. 208 femelles chamois ont été suivies au total. Le nombre d’années de suivi varie selon les femelles entre 1 et 16 années (cf histogramme nombre d’années de suivi).

2.3 Création des variables âge (age),longévité (long) et âge au moment du marquage (agemark)

cham2 <- cham %>%
  summarise(cham, age= year-coh, long=ydth-coh, agemark=anmark-coh)

3 Question 1 : Lien fécondité annuelle et âge des femelles


3.1 Représentation graphique des données

3.1.1 Représentation par classe d’âge

3.1.2 Représentation sans grouper par classe d’âge

3.1.2.1 Utilisation de la fonction jitter

3.1.2.2 Utilisation de la fonction geom_count

Graphiquement, une augmentation de l’âge des chamois semble engendrer une diminution de la fécondité des chamois avec une inflexion de la courbe observée autour de 10 ans.

3.2 Analyse statistique du lien entre fécondité annuelle et l’âge des femelles

3.2.1 Modèles de régression linéaire généralisé avec effets aléatoires


3.2.1.1 Premier modèle testé glm1

Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. La variable “id” est désignée comme variable aléatoire pour tenir compte du fait que les observations sont répétées sur les mêmes individus sur plusieurs années.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ age + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1601.2   1616.5   -797.6   1595.2     1216 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.8934 -1.1311  0.6397  0.7592  1.0459 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.2843   0.5332  
## Number of obs: 1219, groups:  id, 208
## 
## Fixed effects:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.88399    0.17400   5.081 3.76e-07 ***
## age         -0.03981    0.01688  -2.358   0.0184 *  
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##     (Intr)
## age -0.905

Interprétation des coefficients:

L’AIC de ce modèle est de 1601. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion observée. On calcule en utilisant la fonction inverse de logit le coefficient qui permet d’exprimer la fécondité annuelle (en prenant en compte la fonction de lien) en fonction de l’âge. Il est 4.061% moins vraisemblable que les chamois aient un petit lorsque leur âge augmente d’un an (p value<0.02).

3.2.1.2 Second modèle testé glm1q

Un modèle quadratique est testé par la suite pour prendre en compte la tendance de la ligne de régression observée sur les graphiques qui présente une inflexion autour de 10 ans.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ age + I(age^2) + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1522.2   1542.6   -757.1   1514.2     1215 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -2.3232 -1.0166  0.5522  0.7015  2.8031 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.3199   0.5656  
## Number of obs: 1219, groups:  id, 208
## 
## Fixed effects:
##              Estimate Std. Error z value Pr(>|z|)    
## (Intercept) -1.842559   0.360762  -5.107 3.27e-07 ***
## age          0.629878   0.082091   7.673 1.68e-14 ***
## I(age^2)    -0.034199   0.004229  -8.088 6.09e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##          (Intr) age   
## age      -0.944       
## I(age^2)  0.866 -0.976
## optimizer (Nelder_Mead) convergence code: 0 (OK)
## Model is nearly unidentifiable: very large eigenvalue
##  - Rescale variables?

La variable âge est centrée normée car le modèle n’arrive pas à converger.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ age_scale + I(age_scale^2) + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1522.2   1542.6   -757.1   1514.2     1215 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -2.3232 -1.0166  0.5522  0.7015  2.8032 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.3199   0.5656  
## Number of obs: 1219, groups:  id, 208
## 
## Fixed effects:
##                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     1.05769    0.10231  10.338  < 2e-16 ***
## age_scale      -0.01006    0.07136  -0.141    0.888    
## I(age_scale^2) -0.53826    0.06657  -8.085 6.21e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##             (Intr) ag_scl
## age_scale    0.095       
## I(ag_scl^2) -0.653 -0.107

Interprétation des coefficients:

L’AIC de ce modèle est de 1522. Avec ce modèle, la dispersion calculée est de 1.2 donc il n’y a pas de surdispersion observée. L’AIC de ce modèle quadratique < l’AIC du modèle glm1 linéaire donc le modèle quadratique est plus adapté comme attendu graphiquement. Une observation des coefficients associés aux termes âge et âge^2 indique que le terme “âge” n’est pas significatif dans la prédiction de la variable réponse (p value = 0.88) alors que la p value associée au terme “âge^2” < 0.01. La fonction carré est donc testée.

3.2.1.3 Troisième modèle testé glm1c

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ I(age_scale^2) + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1520.2   1535.6   -757.1   1514.2     1216 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -2.3258 -1.0129  0.5515  0.7003  2.7859 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.3176   0.5636  
## Number of obs: 1219, groups:  id, 208
## 
## Fixed effects:
##                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     1.05908    0.10172  10.411  < 2e-16 ***
## I(age_scale^2) -0.53928    0.06606  -8.163 3.26e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##             (Intr)
## I(ag_scl^2) -0.650

Interprétation des coefficients:

L’AIC de ce modèle est de 1520. Avec ce modèle, la dispersion calculée est 1.2 donc il n’y a pas de surdispersion observée. Il est 71.478% moins vraisemblable que les chamois aient un petit lorsque l’âge augmente d’une unité puis qu’on applique la fonction carré (p value < 0.05).

3.2.1.4 4ème modèle testé glm1d

On rajoute la variable “year” comme variable aléatoire pour prendre également en compte le fait que les mêmes individus ont été suivis sur les mêmes années.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ I(age_scale^2) + (1 | id) + (1 | year)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1494.3   1514.7   -743.2   1486.3     1215 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -2.5094 -0.8914  0.5025  0.6684  5.1922 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.3525   0.5937  
##  year   (Intercept) 0.2567   0.5067  
## Number of obs: 1219, groups:  id, 208; year, 26
## 
## Fixed effects:
##                Estimate Std. Error z value Pr(>|z|)    
## (Intercept)     1.18061    0.15108   7.814 5.53e-15 ***
## I(age_scale^2) -0.58955    0.06975  -8.452  < 2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##             (Intr)
## I(ag_scl^2) -0.480

Interprétation des coefficients:

L’AIC de ce modèle est de 1494. Avec ce modèle, la dispersion calculée est de 1.2 donc il n’y a pas de surdispersion observée. Il est 80.317% moins vraisemblable que les chamois aient un petit lorsque l’âge augmente d’une unité puis qu’on applique la fonction carré (p value < 0.05).

3.2.2 Conclusions

npar AIC BIC logLik deviance Chisq Df Pr(>Chisq)
glm1 3 1601.182 1616.499 -797.5910 1595.182 NA NA NA
glm1c 3 1520.246 1535.564 -757.1231 1514.246 80.9357604 0 NA
glm1q 4 1522.226 1542.649 -757.1131 1514.226 0.0198643 1 0.8879169
glm1d 4 1494.319 1514.742 -743.1593 1486.319 27.9076426 0 NA

Le modèle glm1d présente le plus faible AIC. La variable “âge” a un effet significatif sur la fécondité annuelle via ce modèle ce qui n’est pas surprenant car graphiquement la ligne de régression présentait une courbe avec une diminution de la fécondité pour des âges élevés.

4 Question 2 : Variation de la fécondité annuelle en fonction du temps


4.1 Représentation graphique des données

4.1.1 Représentation graphique par année

4.1.2 Représentation graphique sans grouper par année

Graphiquement, la variable âge ne semble pas avoir d’effet sur la fécondité annuelle des chamois malgré le fait que l’âge moyen de la population augmente sensiblement avec les années.

4.2 Analyse statistique du lien entre fécondité annuelle et années

4.2.1 Modèles de régression linéaire généralisé avec effets aléatoires


Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. La variable “id” est désignée comme variable aléatoire pour tenir compte du fait que les observations sont répétées sur les mêmes individus sur plusieurs années. Afin que le modèle converge, la variable “année” est centrée normée.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ year_scale + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1605.2   1620.5   -799.6   1599.2     1216 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.8267 -1.1356  0.6372  0.7564  1.0624 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.2899   0.5384  
## Number of obs: 1219, groups:  id, 208
## 
## Fixed effects:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept)  0.51559    0.07436   6.934  4.1e-12 ***
## year_scale  -0.08965    0.07129  -1.257    0.209    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##            (Intr)
## year_scale -0.012

Interprétation des coefficients:

L’AIC de ce modèle est de 1605. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion observée. D’après la p-value > 0.1, il n’y a pas d’effets significatifs de la variable “year” sur la fécondité annuelle comme supposé préalablement par les représentations graphiques. La variable “âge” n’ayant pas d’effets significatifs sur la fécondité annuelle des chamois, il n’y a pas d’utilité à tester des modèles avec effets additifs ou multiplicatifs en utilisant la variable année.

5 Question 3 : Lien entre fécondité totale et longévité des animaux


5.1 Représentation graphique des données

5.1.1 Représentation sans prendre en compte le nombre d’années de suivi

5.1.2 Prise en compte du biais apporté par le nombre d’années de suivi

Tous les chamois n’ont pas été marqués au même âge et donc n’ont pas été suivis le même nombre d’année comme le montre l’histogramme ci-dessous.

Le nombre d’années de suivi n’est donc pas égal à la longévité des individus comme illustré par le graphique ci-dessous.

Dans un premier temps, l’impact du nombre d’années de suivi sur la fécondité totale des chamois est vérifié.

Comme attendu, la fécondité totale augmente avec le nombre d’années de suivi. Or, il est difficile de savoir si la période plus longue de suivi est due au fait que l’individu a été marqué précocement ou que l’individu a vécu plus longtemps.

Pour pouvoir répondre à la question initiale, qui consiste à vérifier s’il y a un lien entre la fécondité totale et la longévité, il faut pouvoir comparer des individus suivis sur le même nombre d’année et si possible sur le maximum d’années possibles.

En s’appuyant sur le graphique ci-dessous, l’analyse statistique va être réalisée sur un échantillon de la population suivie à savoir tous les individus marqués à 3 ans qui constituent un échantillon > 40 individus et peut permettre d’étudier l’impact de la longévité sur la fécondité totale.

On sait que la variable “année” n’a pas d’impact sur la fécondité annuelle des chamois donc le fait que les chamois aient été suivis pendant des périodes différentes n’a pas d’impact. Il faut néanmoins vérifier en amont que les individus sélectionnés sont bien suivis consécutivement sur toutes les années jusqu’à leur mort?

cham2 = cham2 %>% 
  arrange(id,year) %>% 
  group_by(id) %>% 
  mutate(delta = order_by(id, year - lag(year)), 
  delta = ifelse(is.na(delta), 0, delta))      
table(cham2$delta, cham2$agemark)
##    
##       0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  21
##   0  13  35  11  13  14  17  15  14  10  10  13   9  13   7   6   1   4   2   1
##   1  89 197  77  90  79  93  94  61  41  36  36  40  43  10   6   1   7   6   0
##   2   0   3   0   0   1   0   0   1   0   0   0   0   0   0   0   0   0   0   0

Les individus marqués à 3 ans ont tous été suivis toutes les années depuis leur marquage jusqu’à leur mort.

5.1.3 Création d’un sous-échantillon pour répondre à la question

cham3 <- cham_long %>% 
  filter(agemark==3)

5.1.4 Représentation graphique de la sous-population

5.2 Analyse statistique du lien entre la fécondité annuelle et la longévité

5.2.1 Tests de modèles de régression lineaire généralisé avec effets aléatoires

## 
## Call:
## lm(formula = feconditetotale ~ long, data = cham3)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -3.9795 -1.2058  0.1152  1.3783  3.3783 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -2.75737    0.67879  -4.062 0.000202 ***
## long         0.77369    0.06774  11.422 1.31e-14 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.782 on 43 degrees of freedom
## Multiple R-squared:  0.7521, Adjusted R-squared:  0.7463 
## F-statistic: 130.5 on 1 and 43 DF,  p-value: 1.312e-14

Le modèle linéaire semble valider toutes les hypothèses requises: -Normalité des résidus validée -Homoscédasticité des résidus validée

D’après le résumé du modèle, la fécondité totale augmente de 0.77 individus lorsque la longévité augmente d’un an (p value < 0.01). La longévité a donc un impact sur la fécondité totale.

6 Question 4: Lien entre fécondité annuelle et longévité des animaux


6.1 Représentation graphique des données

L’allure concave des lignes de régression illustre une augmentation de la fécondité annuelle avec la longévité jusqu’à atteindre un maximum autour de 13-14 ans puis une diminution de la fécondité annuelle lorsque la longévité est > 14 ans.

6.2 Analyse statistique du lien entre fécondité annuelle et longévité des femelles

6.2.1 Modèles de régression lineaire généralisé avec effets aléatoires


6.2.1.1 Premier modèle

Le premier modèle appliqué est un modèle glm qui utilise la fonction de lien binomial afin de prendre en compte le fait que la variable réponse soit une variable binomiale. La variable “id” est désignée comme variable aléatoire pour tenir compte du fait que les observations sont répetées sur les mêmes individus sur plusieurs années.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ long_scale + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1094.4   1108.6   -544.2   1088.4      828 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.9390 -1.0671  0.6151  0.7257  1.2421 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.4287   0.6547  
## Number of obs: 831, groups:  id, 155
## 
## Fixed effects:
##             Estimate Std. Error z value Pr(>|z|)    
## (Intercept) 0.489181   0.096299   5.080 3.78e-07 ***
## long_scale  0.003722   0.094304   0.039    0.969    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##            (Intr)
## long_scale 0.095

Interprétation des coefficients:

L’AIC de ce modèle = 1094. Avec ce modèle, la dispersion calculée comme le ratio variance/df est de 1.3 donc il n’y a pas de surdispersion observée. Avec ce modèle, la p value associé à l’impact de la variable “longévité” sur la fécondité annuelle est de 0.97 donc l’effet de la longévité sur la variable réponse n’est pas significatif.

6.2.1.2 Second modèle

On applique un modèle quadratique pour prendre en compte la tendance de la ligne de régression observée sur les graphiques qui présente une inflexion autour de 13-14 ans.

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ long_scale + I(long_scale^2) + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1086.7   1105.6   -539.4   1078.7      827 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.8957 -1.0731  0.6169  0.7331  1.2865 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.3468   0.5889  
## Number of obs: 831, groups:  id, 155
## 
## Fixed effects:
##                 Estimate Std. Error z value Pr(>|z|)    
## (Intercept)      0.70951    0.11706   6.061 1.35e-09 ***
## long_scale      -0.01397    0.09262  -0.151  0.88014    
## I(long_scale^2) -0.21442    0.06860  -3.126  0.00177 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##             (Intr) lng_sc
## long_scale   0.011       
## I(lng_sc^2) -0.609  0.092

Interprétation des coefficients:

L’AIC de ce modèle est de 1087. Avec ce modèle, la dispersion calculée est de 1.3 donc il n’y a pas de surdispersion observée. L’AIC de ce modèle quadratique < l’AIC du modèle linéaire donc le modèle quadratique est plus adapté. Une observation des coefficients associés aux termes longévité et longévité^2 indique que le terme “longévité” n’est pas significatif dans la prédiction de la variable réponse (p value = 0.88) alors que la p value associée au terme “longévité^2” < 0.01. La fonction carré est donc testée.

6.2.1.3 Troisième modèle

## Generalized linear mixed model fit by maximum likelihood (Laplace
##   Approximation) [glmerMod]
##  Family: binomial  ( logit )
## Formula: fec ~ I(long_scale^2) + (1 | id)
##    Data: cham2
## 
##      AIC      BIC   logLik deviance df.resid 
##   1084.7   1098.9   -539.4   1078.7      828 
## 
## Scaled residuals: 
##     Min      1Q  Median      3Q     Max 
## -1.8976 -1.0720  0.6212  0.7348  1.3059 
## 
## Random effects:
##  Groups Name        Variance Std.Dev.
##  id     (Intercept) 0.3429   0.5856  
## Number of obs: 831, groups:  id, 155
## 
## Fixed effects:
##                 Estimate Std. Error z value Pr(>|z|)    
## (Intercept)      0.70972    0.11681   6.076 1.23e-09 ***
## I(long_scale^2) -0.21348    0.06816  -3.132  0.00174 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Correlation of Fixed Effects:
##             (Intr)
## I(lng_sc^2) -0.613

Interprétation des coefficients:

L’AIC de ce modèle est de 1085. Avec ce modèle, la dispersion calculée est 1.3 donc il n’y a pas de surdispersion observée. Il est 23.798% moins vraisemblable que les chamois aient un petit lorsque la longévité augmente d’une unité puis qu’on applique la fonction carré (p value < 0.01).

6.2.2 Conclusions

#Ajouter l’anova# Le modèle avec la fonction carré présente le plus faible AIC. La variable “longévité” a un effet significatif sur la fécondité annuelle via ce modèle ce qui n’est pas surprenant car graphiquement la ligne de régression présentait une courbe avec une diminution de la fécondité pour des longévités élevées.

7 Question 5a: Lien entre fécondite totale et poids


7.1 Représentation graphique des données

7.1.1 Vérification de la comparabilité des poids selon les âges de capture et élimination des valeurs outliers

Certains poids semblent éloignés de la moyenne notamment ceux correspondant à l’année de marquage 3 ans. Afin d’étudier l’impact des poids sur la fécondité totale, les poids non comparables vont être exclus. Pour ce faire, seuls les poids inclus dans la moyenne +/- l’écart type sont conservés.

Une fois obtenue une population de poids comparable de 85 individus, on vérifie l’absence de corrélation entre la variable et la variable “age marquage”.

## 
## Call:
## lm(formula = pds ~ agemark, data = cham_pds_tri)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.2296 -1.0120  0.1231  0.8349  2.2055 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 22.06555    0.30935  71.328   <2e-16 ***
## agemark      0.05877    0.03549   1.656    0.102    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.082 on 81 degrees of freedom
## Multiple R-squared:  0.03275,    Adjusted R-squared:  0.0208 
## F-statistic: 2.742 on 1 and 81 DF,  p-value: 0.1016

La p value associée à la variable explicative “age marquage” est bien supérieure à 0.05 donc on peut considérer que l’age du marquage n’influe pas sur les individus sélectionnés.

7.1.2 Analyse statistique du lien entre fécondité totale et poids des femelles

Nous sommes encore confrontés au problème associée avec la variable “fécondité totale” qui ne correspond pas à la fécondité des individus durant toute leur vie. Le fait d’avoir retiré les poids non comparables ne nous permet pas d’utiliser seulement les indidus marqués à 3 ans pour réaliser l’étude statistique (n<20 pour individus marqués à 3 ans).

Une autre solution aurait été de sélectionner les individus suivis au moins 80% de leur vie (ratio nombre années de suivi/longévité). Mais cela ne concerne que 2 individus. Pour avoir un échantillon d’au moins 30 individus, il faut descendre au dessous d’un ratio < 0.4 ce qui est beaucoup trop faible pour avoir une représentation fiable de la fécondité totale.

cham_pds_tri%>%
  filter(ratiosuivi>0.4)
id feconditetotale long pds coh anneetot minan maxan agemark ratiosuivi
131 5 12 21.2 1992 6 1999 2004 7 0.5000000
133 5 10 22.7 1993 5 1999 2003 6 0.5000000
154 4 11 22.0 1995 8 1999 2006 4 0.7272727
170 5 13 22.7 1994 8 2000 2007 6 0.6153846
201 4 9 22.2 1998 7 2001 2007 3 0.7777778
23 5 10 21.0 1990 8 1993 1999 3 0.8000000
233 5 9 22.7 1998 6 2002 2007 4 0.6666667
242 2 10 22.0 1997 6 2002 2007 5 0.6000000
250 7 13 21.3 1996 8 2002 2009 6 0.6153846
259 6 14 22.5 1996 8 2003 2010 7 0.5714286
260 5 9 24.2 1998 5 2003 2007 5 0.5555556
268 4 10 21.2 1997 5 2003 2007 6 0.5000000
29 4 11 23.5 1987 6 1993 1998 6 0.5454545
307 3 6 22.8 2001 4 2004 2007 3 0.6666667
316 3 10 21.0 1998 5 2004 2008 6 0.5000000
326 2 11 23.5 2000 7 2005 2011 5 0.6363636
338 3 7 22.8 2000 3 2005 2007 5 0.4285714
353 3 11 22.6 1998 5 2005 2009 7 0.4545455
357 1 6 23.6 2001 3 2005 2007 4 0.5000000
39 13 16 21.0 1991 14 1994 2007 3 0.8750000
417 3 11 20.6 2002 7 2007 2013 5 0.6363636
46 7 19 21.0 1983 9 1994 2002 11 0.4736842
54 10 13 21.0 1991 11 1994 2004 3 0.8461538
67 5 20 23.5 1986 12 1995 2006 9 0.6000000
79 4 16 21.0 1986 7 1996 2002 10 0.4375000
81 6 16 23.0 1991 12 1996 2007 5 0.7500000
R1 7 16 23.5 1989 11 1995 2005 6 0.6875000

Une solution est d’étudier le lien entre poids et fécondité totale en ajoutant comme autres variables explicatives l’age de marquage, la longévité.

## 
## Call:
## lm(formula = feconditetotale ~ pds + agemark, data = cham_pds_tri)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.4500 -1.7386 -0.1628  1.1433  7.5500 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 13.14185    4.91260   2.675  0.00906 ** 
## pds         -0.31582    0.22089  -1.430  0.15668    
## agemark     -0.35326    0.07174  -4.924 4.47e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 2.151 on 80 degrees of freedom
## Multiple R-squared:  0.2715, Adjusted R-squared:  0.2533 
## F-statistic: 14.91 on 2 and 80 DF,  p-value: 3.139e-06

## 
## Call:
## lm(formula = feconditetotale ~ pds + agemark + long, data = cham_pds_tri)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -2.5201 -0.6534  0.0715  0.8210  3.5615 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.10635    3.14902   1.304    0.197    
## pds         -0.12720    0.14087  -0.903    0.370    
## agemark     -0.71466    0.05749 -12.431   <2e-16 ***
## long         0.63420    0.05404  11.736   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.219 on 66 degrees of freedom
##   (13 observations effacées parce que manquantes)
## Multiple R-squared:  0.7467, Adjusted R-squared:  0.7352 
## F-statistic: 64.85 on 3 and 66 DF,  p-value: < 2.2e-16

## 
## Call:
## glm(formula = feconditetotale ~ pds + agemark, data = cham_pds_tri)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -5.4500  -1.7386  -0.1628   1.1433   7.5500  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) 13.14185    4.91260   2.675  0.00906 ** 
## pds         -0.31582    0.22089  -1.430  0.15668    
## agemark     -0.35326    0.07174  -4.924 4.47e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 4.6285)
## 
##     Null deviance: 508.29  on 82  degrees of freedom
## Residual deviance: 370.28  on 80  degrees of freedom
## AIC: 367.66
## 
## Number of Fisher Scoring iterations: 2
## 
## Call:
## glm(formula = feconditetotale ~ pds + agemark + long, data = cham_pds_tri)
## 
## Deviance Residuals: 
##     Min       1Q   Median       3Q      Max  
## -2.5201  -0.6534   0.0715   0.8210   3.5615  
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  4.10635    3.14902   1.304    0.197    
## pds         -0.12720    0.14087  -0.903    0.370    
## agemark     -0.71466    0.05749 -12.431   <2e-16 ***
## long         0.63420    0.05404  11.736   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## (Dispersion parameter for gaussian family taken to be 1.485703)
## 
##     Null deviance: 387.086  on 69  degrees of freedom
## Residual deviance:  98.056  on 66  degrees of freedom
##   (13 observations effacées parce que manquantes)
## AIC: 232.24
## 
## Number of Fisher Scoring iterations: 2

D’après les modèles testées, les variables longévité et age de marquage influent bien sur la fécondité totale comme attendu mais la variable poids ne semble pas impacter.

8 Question 5b: Lien entre longévité et poids


8.1 Représentation graphique des données

8.1.1 Représentation graphique de la longévité en fonction du poids

8.2 Analyse statistique du lien entre longévité et poids des femelles

8.2.1 Modèles de régression linéaire généralisé avec effets aléatoires

La variable longévité semble présenter une distribution normale donc on applique un modèle linéaire lm.

## 
## Call:
## lm(formula = long ~ pds, data = cham_pds)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -8.6973 -2.2532  0.2628  2.3085  7.7089 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  3.33010    1.66882   1.995   0.0482 *  
## pds          0.39844    0.07789   5.116 1.19e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 3.475 on 121 degrees of freedom
##   (50 observations effacées parce que manquantes)
## Multiple R-squared:  0.1778, Adjusted R-squared:  0.171 
## F-statistic: 26.17 on 1 and 121 DF,  p-value: 1.189e-06

Le modèle linéaire semble valider toutes les hypothèses requises: -Normalité des résidus validée -Homoscédasticité des résidus validée

D’après le résumé du modèle, la longévité augmente de 0.56 années lorsque le poids augmente d’un kg (p value < 0.01). La poids semble donc avoir un impact sur la longévité.

9 Résultats

L’ensemble des modèles testées montrent que l’age influe sur la fécondité annuelle mais qu’il n’y as pas d’effets années. Les femelles plus agées ont une fécondité annuelle qui chute. Les années en revanche ne semblent pas impacter sur la fécondité annuelle des femelles donc il n’y a pas un impact important des facteurs environnement. Plus les chamois vivent longtemps, plus elles ont le temps d’avoir des petits malgré la diminution de la fécondité annuelle. Par contre, la des femelles longévives ont une fécondité annuelle qui baisse ce qui indique un cout important de la réproduction. Un poids plus important des chamois indique une longévité plus importante et on pourrait donc s’attendre à une augmentation de la fécondité totale également. Mais, de par la difficulté d’avoir accès à la fécondité totale, il est difficile de conclure sur l’impact du poids étant donné que l’age du marquage et la longévité (et donc de manière indirecte le nombre d’années de suivi) impactent bien plus sur la fécondité totale que la variable poids.